「跑马圈数据」时代，12位产学研专家眼中数据要素与数字金融的「真相」

本文作者：周蕾

2021-10-15 11:46

导语：“只有烂大街的技术才是好技术”？隐私计算肩上的担子又沉了几分。

本周，“2021人工智能产业论坛：数据要素与隐私计算”在成都举办，由中国人工智能学会主办，星云Clustar承办。论坛上，近二十位来自人工智能、金融科技的学术界、产业界人士，围绕隐私计算、数字金融等话题展开了深入的探讨。

专家们在会上一一指出数据要素从诞生到使用、交易的各种痛点所在，并结合自身实践经验给出了发展路径的思考；金融机构、政企合作如何借此良机推动数字化进程、摆脱种种陷阱，也同样是论坛的一大重点。

恒生电子研究院院长、原上海交易所总工程师白硕就指出，“跑马圈数据”时代的两大痛点，是合作难和链条长。解决方案是加宽加高底座，打造一个开放的生态。数据智能革命会从数字化的中台开始，数据是基础，中台是关键场景的规划，隐私计算是当中较为突出的技术之一。

数据容易被复制、泄露、扩散，这种特性对市场非常不利，以至于有些人认为数据的经营和交易有可能是一个伪命题。

数据的构成也相比之前变化颇大。例如资本市场，从资讯商提供主流数据行情、上市公司标准化解决数据等，进入到非标数据分析的时代，大量的另类数据、非结构化数据出现。

数据生态起了根本性变化，为此有四种选择诞生：过去互联网平台的发展模式；政府数据所谓的数据服务模式；万德、同花顺这类私有终端的传统模式，单一厂家掌控所有的数据来源；数据联盟。

传统打法可能不再是主流，私有终端也未必能应对另类数据的庞大体量，联邦化的技术发展正值窗口机遇期。

数据到场景的链条过长，从附加值低的裸数据，转型艰难的带标数据，再到智能化深加工的数据、场景数据，各阶段所需技术不同，不同技术的拥有者变成了要“分段”体现自己的价值。这意味着谁能打通全链条，就可能占据生态上的优势。随着隐私计算走向成熟，机会也出现在了to B的联邦化数据经营战场。

新的机会，纵向看，内容集成商对接数据到场景的旧做法，可能会演化到全栈服务商提供内容深加工的形式；横向看，外部数据、服务会通过带保护的方式，进入到基础业务能力，合并形成统一的联邦化中台再对接业务。

加拿大工程院院士、加拿大皇家科学院院士杨强，则就《数据要素与联邦学习》为主题带来分享。他指出，数据的特点之一是增长迅猛，布置起来零成本；数据的价值属于场景的定义，场景不同、价值不同；同时它也具有马太效应，更容易形成垄断。

数据分为可用和不可能，前者又细分为可见和不可见。我们如今感兴趣的，实际上发展的是可用和不可见的分支上。

第一阶段，上世纪七八十年代，安全多方计算，针对精确计算和数据库查询的隐私保护需求而提出。安全性非常强，有理论证明，效率却非常低。

第二阶段，针对效率问题，提出差分隐私概念。通过概率方法引入噪音，使得查询方不能窥探数据库内。缺点是不能完全保障安全，且大量增加通知量。

第三阶段，集中硬件加密计划。硬件厂商提出新的芯片，使数据进入安全加密计算，一方看不到其他方数据，计算结果大家可以得到。

第四阶段，联邦学习，针对这种大规模复杂的计算多方计算而建立。

（推荐阅读：《微众银行首席AI官杨强：万字图文详谈联邦学习最前沿》）

机构间建模时，多数依靠特征补充来建立更好的模型。当机构和设备重叠不多时，可引入迁移学习的概念，把数据空间给迁移到一个新的空间，这多数是用在异构的数据。

还有一个重要研究方向，是激励机制的建立。例如利用区块链来记录审计，每一个数据拥有方对整个联合模型的贡献。这就需要一个公平的利益分配原则，需要经历机制设计的过程。

应用方面，首先在金融的交叉营销、反洗钱，可以通过联邦学习把他们的数据联合建筑，把模型的特征空间加以扩充，完成联合建模；以及医疗诊断、物联网、无人车网络等。

总体来说，联邦学习是多学科的交叉，包括安全合规，如何防御攻击和提升教育，如何广泛的来进行技术应用，还有如何建立这种联邦机制联盟的机制，以鼓励大家持续的为经济体为生态贡献。

而隐私计算的商业模式也逐渐形成，例如平台建设方靠硬件产品部署和提供利用项目建设的方式收费；咨询服务商帮助大平台进行数据价值解读，利用数据运营等。

香港科技大学智能网络系统实验室主任、星云Clustar创始人陈凯，与清华大学金融科技研究院副院长、华控清交创始人徐葳也就隐私计算和数据要素两大主题，带来了一场深度对话。

数据保护现状是否也促成了更多潜在的商业机会？对此，陈凯表示机遇与挑战并存，面临的挑战首先是产品；徐葳则指出，长远来看，挑战仍然在于数据能否带来价值。

而对于技术应用角度如何积极适应规则，陈凯表示，很难有一个技术/算法能够最小地完成最小影响，最小范围、最短时间；法规是在技术研究上给予约束条件，帮助推动研发和落地的进程。

当被问到隐私计算未来发展的特征，陈凯表示建立安全的数据网络意义重大，如何处理大量不同机构间的异构数据、性能和规模上处理海量数据、如何让利益共享的性能有指数级的提升，当中有许多值得努力研究的难题。

徐葳则笑称“只有烂大街的技术才是好技术”，认为一项新技术未来的表现，要看技术本身能否成功、使用门槛能否降低。数据源也在逐步有机生长，很多不同行业、不同地区的小平台被建立起来交换数据，如何让这些异构平台也增长成功、小的计算方法和技术整合起来，实现规模经济，也值得关注。

百度安全产品总经理韩祖利也认为，数据要素呈现几大趋势特性：规模上升，类型增加，数据价值密度降低，应用场景也在泛化。

在他看来，当代数据安全的核心要义：应对强对抗的安全问题，非对抗安全和内部使用的权限、审计，隐私保护。因此一个方案如果诞生，应具备三个特点：覆盖数据全生命周期，一体化的集中治理平台，和合规的数据使用、流通形式。

成都大数据集团总经理顾勤就表示，关于科学要素流通的创新实践主要有三个阶段：公共数据运营；整体数据流通，政府的公共数据和社会企业的数据间产生碰撞；产业数据的协同。

以第三阶段为例，即产业数字化，有两种方式：传统产业的体能升级；创新产业的协同效应，通过系统的互联、数据的交互，产生新的价值和场景。

第四范式副总裁、主任科学家涂威威，则在演讲中提出这样一个问题：传统的数据安全设计，能够覆盖AI应用的范围吗？

在训练到预测的许多环节里，都出现了他们预想不到的攻击方式。多种看似正常合法、实为攻击的手段，已经发展颇为成熟。

例如AI公司对外提供信用卡授信模型，攻击者可以通过不断申请、使用授信服务，将反馈回来的数据用于“猜测”那个授信模型。如果这样的新模型被训练出来，攻击者有可能就会猜到训练集的内容，相当于数据泄露，但该过程中的行为均是合法的。

很多研究陷入了停顿状态，AI应用是一个广大的系统，攻击者能以任意方式攻击。在实际应用当中，即便这部分防住了，其他地方依然有很多的缺口。而AI相关理论目前尚未辨析清楚，如果用于引申的AI应用当中，其实际指导作用十分有限。

为此，从传统IT安全角度出发，从商业逻辑和可行性出发，讨论隐私安全是一种矛与盾的理论，要加强对攻击者的研究。

论坛的下半场则关注数据要素与数字金融。国家金融与发展实验室副主任曾刚，从金融机构数字化的角度切入，指出需要组织架构和数字化基础架构的调整、创新；数据资产化能力和数据治理、数据营销和运营能力、数字化风控能力，只有少部分金融机构做到了。

以前是实现商流，物流，资金流三流合一，这个是打造闭环模式重要的理念。但是现在这个闭环模式意味着对数据的垄断，所以要打破。

最后他强调，数字化的本身并不是技术多高、计算能力多强、准确率多高等，从传统金融机构角度来讲，核心是服务客户的需求。因此数字化并不是一味追求数据领先性，而是适应性，适宜性，寻找最合适的技术。

清华大学国强教授、智能产业研究院首席研究员聂再清，也提出了两个具有挑战意义的问题：

一是模态数据。如何联系不同模块来提升AI的认知能力，使其综合应对实际应用的水平提升，应用好各模态间的信息？

二是多模态应用，训练成本颇高。如何提升人机协作的效率，更多利用AI来低成本生产高质量的知识和训练数据？

那么，在可信AI原则下，如何发挥私有数据的价值？他指出，要这些原始数据利用机器学习变成知识；通过经济方式共享、联邦的方式，看到“私有财产”数据的价值，得到应有的经济回报。

建信金融科技创新实验室总经理王雪，分享了建设银行和建信金科在数据和隐私监管趋严的前提下，对解决路径的思考：

一，所需要的隐私计算平台本身的功能，一定是和场景、需求强绑定的。其开发过程需要由长激动不断调整和验证。

二，在此过程中，场景和生态要有相互促进，场景和运营能力的不断提升对平台起到反哺和教学的作用。

三，核心思想仍然是通过隐私计算能力实现数据价值最大化。

王雪也结合了数易联平台的建设，介绍了建行对该平台的规划细节。她表示联邦学习也在集团内部有所应用，用于产品营销、政务数据的融合与挖掘等。

星云Clustar的CEO陈沫也透露，他们已与建行合作搭建了一个联邦学习的联合建模平台。

光大信托信息技术部副总经理、数据中心总经理祝世虎就指出，很多中小银行在金融科技上落入后发劣势，后浪可能仅学习前浪表面容易实现的部分；而前浪也容易陷入一套模型对所有业务、建模套路化的陷阱，模型容易失去准入效果。

他预测，未来金融科技发展会有六大方向：

深度学习算法将会被广泛采用，随着数据的进步，深度学习算法才会充分发挥活力；
多模态数据、非金融数据会广泛使用；
网络发展解决了反欺诈的问题，图谱能够识别新型欺诈，多维图谱的不断丰富会成为银行的第二数据源；
联邦学习会大规模落地；
算法的可解释性将会被逐步重视，近两年都集中在特征重要性的排序上。不过也不要一味追求可解释性，智能的本质是利用算法和数据，抓住那些被埋没的不可解释信息出来。
自动化的监控平台将会逐步的升级为模型风险管理平台。

雷锋网雷锋网雷锋网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

周蕾

编辑

AI医健/AI4S/云计算/To B/金融科技丨微信：LorraineSummer

扫描关注作者微信

发私信

当月热门文章